運用類神經網路方法之語言端點偵測研究 (A Study on Voice Activation Detection by Using Neural Networks) [In Chinese]
نویسندگان
چکیده
This study used DNN (Deep Neural Network) to process Voice Activation Detection, and discussed the following variable which affect the performance of VAD: (1) The analyzed window size of MFCC feature extraction, (2) Layer number of DNN, (3) Signal to Noise Ratio, and (4) The type of background condition. This experiment used NTPU Noise Corpus, which is mixed by many kinds of background noise recorded by smart phone and TCC300 Corpus. The background noise includes: (1) Bus Stop, (2) MRT, (3) Train Station, (4) Restaurant, and the SNR is 10 dB, 5 dB, 0 dB and clean speech. Evaluated standards of system are frame accuracy and equal error rate (EER). The experiment result indicated that when the feature parameter analyzed window is bigger, the performances of training and validation set obviously become better, but the improved range of outside test is smaller. When layers number of DNN in 2 layer, the performance of multi-condition is better, and when the SNR is higher, the improvement is obviously, in particularly, the background condition is restaurant. In conclusion, in every conditions of the multi-condition training, the performances of outside test are all better than in matched-condition, and it proved that every conditions in multi-condition can learn each other in the hidden layer. 關鍵詞:語音端點偵測,MLP,DNN,台北大學雜訊語料庫
منابع مشابه
完全基於類神經網路之語音合成系統初步研究 (A Preliminary Study on Fully Neural Network-based Speech Synthesis System) [In Chinese]
A Preliminary Study on Fully Neural Network-based Speech Synthesis System 廖書漢 SHU-HAN Liao ,蔡亞伯 YaBo Chai , 廖元甫 a Yuan-Fu Liao, a 國立台北科技大學電子工程系 [email protected], [email protected], [email protected] 摘要 傳統的語音合成使用先文字分析後語音合成的架構,但是這種兩階段的作法, 通常會有,若前級分析錯誤,就會影響後級合成,且無法挽救的問題。因此,在 本論文中我們希望嘗試把前後級,全部都改成以類神經網路實現,以便將來可以 直接合成一個大的端對端語音合成類神經網路。主要的想法是,直接以字元串為 輸入單位,並盡量用大量未標記語料,進行非監督式類神經網路訓練。我們的系 統包含四個子網路,分...
متن کامل遞迴式類神經網路語言模型應用額外資訊於語音辨識之研究 (Recurrent Neural Network-based Language Modeling with Extra Information Cues for Speech Recognition) [In Chinese]
متن کامل
基於卷積類神經網路之廣播節目音訊事件偵測系統 (Automatic Audio Event Detection of Broadcast Radio Programs Based on Convolution Neural Networks) [In Chinese]
廣播電臺節目中通常包含語音,音樂與其他音訊事件(如笑聲或特效聲)。若能偵 測並切割這些音訊事件,就能進一步對廣播節目進行加值運用。例如,轉寫語音片段的 逐字稿,或是辨認音樂片段的歌名與曲名,以利檢索。針對此問題,在本論文中,我們 首先設計,並以人工標註出一廣播節目音訊事件資料庫,再利用 Convolutional Neural Network (CNN)自動擷取有效的特徵音訊參數,對廣播電臺的音檔做音訊事件偵測與切 割,最後轉成具時間資訊的音訊事件標註檔。實驗方面我們從教育電臺節目中,選出新 聞類與不同性質的談話類節目共 14 個,經人工標注後,獲得總長度共約 60 小時的音 檔,並用來訓練與測試 CNN和傳統 Gaussian Mixture Model(GMM)的效能。實驗結 果顯示以 CNN直接搭配頻譜參數,在偵測語音與非語音,音樂與非音樂或其它與非其 它音訊事件等的錯誤率(e...
متن کامل基於深層類神經網路之音訊事件偵測系統(Deep Neural Networks for Audio Event Detection)[In Chinese]
現實生活中常有許多聲音事件會一起發生,而聲音會重疊在一起,使得傳統(Gaussian Mixture Model ,GMM)方法很難準確辨認這些重疊的聲音事件。因此,本文提出以深層 類神經網絡(Deep Neural Network, DNN)來檢測這些互相干擾的聲音事件,並據此參加 Detection and Classification of Acoustic Scenes and Events 2016 (DCASE2016) 比賽, DCASE2016 評比提供的音訊資料,內有兩種場景,包括居家與戶外,共有 18 種含有背 景的聲音事件。實驗結果顯示使用 DNN 與傳統 GMM 比較,其場景偵測錯誤率可從 0.91 降至 0.86、F1 分數並從 23.4%提升到 26.8%。此外針對室內環境的音訊事件偵測,錯誤 率可從 1.06 降至 0.86,F1 分數並從 8.9%提升...
متن کامل基於深層遞迴類神經網路之多通道電視回聲消除系統(Multi-Channel Television Echo Cancellation based on Deep Recurrent Neural Networks)[In Chinese]
本論文研究智慧型電視操作情境下之電視節目回聲消除,希望能在電視節目持續播 放的情形下,仍能錄到說話者的清晰語音,並能應用在即時語音通訊與遠距語音辨 認人機介面上。本論文的回聲消除系統演算法是以遞迴類神經網路(Recurrent Neural Network,RNN)演算法,再配上多通道麥克風做回聲消除,達到人聲增強, 抑制噪音雜訊,提高語音清晰度。實驗分別實作單純電視節目聲、人聲混電視節目 聲兩種實驗,再導入前五秒無人聲預訓練,後五秒有人聲之電視節目回聲消除模式 實驗,實驗結果以回聲衰減量來判斷效能優劣。實驗顯示,以多通道深層遞迴類神 經網路效能優於其他方法,透過多聲道 RNN處理,的確能有效地濾除雜訊。 關鍵詞: 聲學回聲消除、適應性濾波器、類神經網路、遞迴類神經網路 The 2016 Conference on Computational Linguistics and Spee...
متن کامل